Belgedeki Tabloyu Okuma

VB C#

using IronOcr;
using System.Linq;

// Instantiate OCR engine
var ocr = new IronTesseract();

using var input = new OcrInput();
input.LoadPdf("table.pdf");

// Perform OCR
var result = ocr.ReadDocumentAdvanced(input);

var cellList = result.Tables.First().CellInfos;

Imports IronOcr
Imports System.Linq

' Instantiate OCR engine
Private ocr = New IronTesseract()

Private input = New OcrInput()
input.LoadPdf("table.pdf")

' Perform OCR
Dim result = ocr.ReadDocumentAdvanced(input)

Dim cellList = result.Tables.First().CellInfos

Install-Package IronOcr

Belgedeki Tabloyu Okuma

Bu kod örneği, bir PDF belgesinden metin ve tablo verilerini çıkarmak için IronTesseract OCR motorunun nasıl kullanılacağını göstermektedir.

IronTesseract OCR motorunun bir örneği oluşturulur.
Bir OcrInput nesnesi başlatılır ve LoadPdf yöntemi kullanılarak bir PDF dosyası ("table.pdf") yüklenir.
OCR motoru, belgeyi ReadDocumentAdvanced yöntemi kullanarak işler, bu da daha ayrıntılı bir OcrResult nesnesi döndürür.
Belgedeki ilk tabloya result.Tables.First() kullanılarak erişilir ve bu tabloda yer alan hücre bilgisi CellInfos ile çıkarılır.
Hücre verileri listesi (cellList) şimdi metin içeriği ve diğer detaylar (örneğin, hücre konumu, boyutu) dahil olmak üzere tablonun hücrelerini içermektedir.
Bu yöntem, PDF'lerden tablolar gibi yapılandırılmış verileri çıkarmak için faydalıdır, her tablo hücresindeki metnin programatik olarak erişilmesine ve işlenmesine olanak tanır.